Bioinformatics | 通过修正异质信息中不完整信息的影响来预测药物-蛋白相互作用
2022年9月16日,南开大学Liu Jian和卫金茂团队在Bioinformatics上发表论文《Drug-Protein Interaction Prediction by Correcting the Effect of Incomplete Information in Heterogeneous Information》。论文中,借助双向随机游走算法,作者提出了用完整信息的相似度矩阵修正基于不完整信息的预测结果的BRWCP模型,用于预测药物-蛋白相互作用,得到了较好的结果,并进行了深入的分析和案例研究。
1 摘要
结果:作者开发了一种基于网络的DPI预测方法BRWCP,它使用完全信息网络来修正不完全信息网络获得的预测结果。通过整合可能不完整的相关异质信息,获得药物和蛋白质的特征相似度。结合特征相似度和已知DPIs,构建了一个基于不完全信息的药物-蛋白异质网络。然后,在该异构网络中采用带剪枝的双向随机游走算法(a bidirectional rrandom walk with pruning algorithm)来预测潜在的DPIs。接下来,将预测的DPIs与药物的化学指纹相似度和蛋白质的氨基酸序列相似度相结合,构建完整的信息网络。在此网络上运用带剪枝的双向随机游走算法,得到最终的预测结果,直至收敛。实验结果表明,BRWCP优于几种最先进的DPI预测方法,案例研究进一步证实了其挖掘潜在药物-蛋白质相互作用的能力。
2 材料
2.1 数据集
DPI数据集包括药物-蛋白互作矩阵,相对稀疏且包含不完整信息的药物-药物互作矩阵、药物-疾病关联、药物-互作用矩阵,蛋白-蛋白互作矩阵、蛋白-疾病互作矩阵。数据还包括具有完整信息的根据药物的化学分子指纹计算的Jaccard相似度矩阵和蛋白的氨基酸序列计算的相似度矩阵。
2.2 获取低维特征并计算特征之间的相似度
图1 计算药物或蛋白质特征相似度的过程。首先,将药物相关或蛋白质相关的不完整信息拼接起来,分别获得药物和蛋白质的特征矩阵。然后通过奇异值分解(sigular value decomposition)得到药物和蛋白质的特征向量。最后,将两个低维特征向量的余弦相似度作为其特征相似度。
3 方法
3.1 问题描述
药物集合:. 蛋白集合:. 药物-蛋白相互作用矩阵:,其中如果存在相互作用则,否则. 药物之间的特征相似度和序列相似度分别表示为和. 蛋白之间的特征相似度和序列相似度分表表示为和. 因此预测潜在DPIs的任务可以描述为:给定矩阵,,,和,更新.
3.2 BRWCP方法概述
图2 此图显示了BRWCP的工作流程。(a)-(b) 构建基于不完全信息的药物-蛋白质异质网络。(b)-(c) 修剪异质网络。(c)-(d) 关系变换。(d)-(e)-(f) 构建基于完整信息的药物-蛋白质异质网络。随机行走算法在网络(b)、(c)、(f)上运行。
目前,连坐法(guilt-by-association)仍然是预测DPIs的一个重要原则。多源异质信息的引入为观察药物之间或蛋白质之间的关联提供了一个新的视角,其可以进一步帮助挖掘潜在的关联,提高DPI预测的准确性。然而,多源信息往往面临信息不完整的问题,这降低了数据的质量,从而限制了预测模型的性能。BRWCP通过使用完整的信息网络来修正不完整信息网络的预测结果,以减少不完整信息的负面影响。
BRWCP方法的工作流程如图2所示,步骤如下:
3.3 构建基于不完整信息的药物-蛋白异质网络
药物-蛋白预测模型是一个在异质网络上带重启的双向随机游走。在药物网络上游走:
3.4 剪枝
为了提取更可信的相似度关系,作者对相似度网络进行了剪枝:保留前个最大的相似度邻居,其余的相似度置为0.剪枝算法如算法2所示。
在算法2中,KNN(·)返回的是药物或蛋白最近邻居的位置信息。最后可以得到剪枝后的药物-蛋白异质网络:
3.5 修正模型
数据包括具有完整信息的根据药物的化学分子指纹计算的Jaccard相似度矩阵和蛋白的氨基酸序列计算的相似度矩阵,因此作者构建了一个基于完全信息的异质网络来修正之前的预测结果。经过剪枝的网络表示如下:
然后作者根据剪枝后的基于完全信息的药物、蛋白相似度矩阵和3.4节中预测的药物-蛋白相互作用概率矩阵构建了一个新的异质网络。然后基于此网络运行BiRW算法次直至收敛。完整的BRWCP算法过程如算法3所示。
3.6 讨论
4 结果
为了评估模型的性能与作用,作者进行了广泛的实验:1. 不同评价指标上与其他模型的对比试验(图3和图4)。2. 模型的消融实验(图5)。3. 案例研究实验(表1)。
5 结论
在这篇文章中,作者提出了一种新的预测药物-蛋白质相互作用的方法BRWCP,其基于一种双向随机游走剪枝算法。BRWCP分别基于不完全信息和完全信息构建了两个异质网络。基于不完全信息的异质网络集成了药物、蛋白质和疾病的多源信息,为DPI预测提供了新的视角。使用基于完全信息的异质网络来修正信息不完整对预测结果的影响,同时从另一个角度描述DPI任务。在将随机游走算法应用于不同异构网络的过程中,使用剪枝操作对相关网络进行剪枝,以提取更可靠的相似关系,提高预测的准确性。在最终的潜在DPI预测过程中,模型中基于不完全信息的异构网络将用所有已知的DPI进行更新,DPI预测的性能将更好。实验表明,BRWCP优于几种最先进的DPI预测方法。案例研究表明,BRWCP预测的一些DPI已经得到验证,因此BRWCP有望为生物学家筛选用于湿实验室实验的药物蛋白对提供有力的帮助。
参考文献
Yanfei Li, Chang Sun, Jin-Mao Wei, Jian Liu, Drug-Protein Interaction Prediction by Correcting the Effect of Incomplete Information in Heterogeneous Information, *Bioinformatics*, 2022;, btac629, https://doi.org/10.1093/bioinformatics/btac629
--------- End ---------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或
姓名-学校-职务/研究方向。
- 历史文章推荐 -
【药靶相互作用】
●Bioinformatics | MGPLI:多粒度表示模型预测蛋白质-配体相互作用
●BMC Bioinform|CNN-DDI:基于卷积神经网络预测药物相互作用
●Drug Discov Today | 利用系统的蛋白质-配体相互作用指纹图谱进行药物发现
●Nat Mach Intel|一种用于分子相互作用和分子性质预测的自动图学习方法